Bag of Words এবং TF-IDF

Computer Science - আর্টিফিশিয়াল ইন্টেলিজেন্স (Artificial Intelligence) - Natural Language Processing (NLP)

440

Bag of Words (BoW)

Bag of Words (BoW) হল একটি জনপ্রিয় এবং সাধারণ টেক্সট প্রক্রিয়াকরণ পদ্ধতি যা একটি টেক্সট ডেটাসেট থেকে বৈশিষ্ট্য (features) তৈরি করার জন্য ব্যবহৃত হয়। এই পদ্ধতির মাধ্যমে, একটি ডকুমেন্ট বা টেক্সটকে একটি "ব্যাগ" হিসেবে ধরা হয়, যেখানে শব্দগুলি তাদের ক্রম ছাড়াই থাকে এবং তাদের সংখ্যাও গুরুত্বপূর্ণ নয়।

বৈশিষ্ট্য

শব্দের উপস্থিতি: BoW মডেলে প্রতিটি শব্দের উপস্থিতি গণনা করা হয়। এটি শব্দের ফ্রিকোয়েন্সি এবং টেক্সটের মধ্যে শব্দের সংখ্যা বোঝার জন্য ব্যবহার করা হয়।
ক্রম এবং ব্যাকরণ সংক্রান্ত তথ্য বাদ দেওয়া: শব্দগুলির ক্রম বা অর্থের সম্পর্কের বিবেচনা করা হয় না; কেবলমাত্র শব্দগুলির উপস্থিতি বা অনুপস্থিতি বিবেচিত হয়।

উদাহরণ

যদি আমাদের দুটি ডকুমেন্ট থাকে:

"আমি ভালোবাসি কুকুর।"
"আমি ভালোবাসি বিড়াল।"

BoW এ শব্দের তালিকা হবে: ["আমি", "ভালোবাসি", "কুকুর", "বিড়াল"]।

শব্দ	ডকুমেন্ট 1	ডকুমেন্ট 2
আমি	1	1
ভালোবাসি	1	1
কুকুর	1	0
বিড়াল	0	1

ব্যবহার

টেক্সট ক্লাসিফিকেশন
তথ্য পুনরুদ্ধার
স্প্যাম ফিল্টারিং

TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF হল একটি পরিমাপ পদ্ধতি যা শব্দের গুরুত্ব বোঝাতে ব্যবহার করা হয় একটি ডকুমেন্টের মধ্যে এবং একটি বৃহত্তর ডকুমেন্ট কালেকশনের মধ্যে। এটি শব্দের গুরুত্ব নির্ধারণ করে, যা টেক্সট ডেটায় বৈশিষ্ট্য তৈরি করার জন্য খুবই কার্যকর।

TF-IDF-এর গঠন

Term Frequency (TF): একটি নির্দিষ্ট ডকুমেন্টে শব্দের উপস্থিতির সংখ্যা। এটি সাধারণত নিম্নলিখিত ফর্মুলার মাধ্যমে গণনা করা হয়:

\[
\text{TF}(t, d) = \frac{\text{Number of times term t appears in document d}}{\text{Total number of terms in document d}}
\]

Inverse Document Frequency (IDF): এটি ডকুমেন্ট কালেকশনে শব্দের গুরুত্ব নির্দেশ করে। এর মাধ্যমে বোঝা যায় যে শব্দটি কতটা সাধারণ বা বিরল। এটি গণনা করা হয়:

\[
\text{IDF}(t, D) = \log\left(\frac{\text{Total number of documents in D}}{\text{Number of documents containing term t}}\right)
\]

TF-IDF: TF এবং IDF এর গুণফল। এটি শব্দটির গুরুত্ব নির্দেশ করে:

\[
\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)
\]

উদাহরণ

ধরা যাক, আমাদের তিনটি ডকুমেন্ট আছে:

"আমি ভালোবাসি কুকুর।"
"আমি ভালোবাসি বিড়াল।"
"কুকুর এবং বিড়াল দুটিই পোষ্য।"

এখন "কুকুর" শব্দের TF-IDF এর গণনা করলে, এটি জানতে হবে শব্দটির কতবার উপস্থিতি এবং কতটি ডকুমেন্টে এটি রয়েছে।

ব্যবহার

তথ্য পুনরুদ্ধার
টেক্সট ক্লাসিফিকেশন
ডেটা মাইনিং

উপসংহার

Bag of Words (BoW) এবং TF-IDF হল প্রাকৃতিক ভাষা প্রক্রিয়াকরণের মৌলিক টুল, যা টেক্সট ডেটার বৈশিষ্ট্য বের করার জন্য ব্যবহৃত হয়। BoW শব্দগুলির উপস্থিতি ভিত্তিক তথ্য প্রদান করে, যেখানে TF-IDF শব্দগুলির গুরুত্ব নির্ধারণ করে ডকুমেন্টের মধ্যে। এই পদ্ধতিগুলি মেশিন লার্নিং এবং ডেটা অ্যানালিটিক্সে টেক্সট বিশ্লেষণে অত্যন্ত কার্যকর।

Content added || updated By

Md. Shakil khan

NLP কী এবং এর প্রয়োজনীয়তা Text Preprocessing এবং Tokenization Sentiment Analysis এবং Text Classification Transformer এবং Language Models (BERT, GPT)

Bag of Words এবং TF-IDF

Bag of Words (BoW)

বৈশিষ্ট্য

উদাহরণ

ব্যবহার

TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF-এর গঠন

উদাহরণ

ব্যবহার

উপসংহার

Promotion

Satt AI

Hi, আমি SATT AI!

Bag of Words এবং TF-IDF

Bag of Words (BoW)

বৈশিষ্ট্য

উদাহরণ

ব্যবহার

TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF-এর গঠন

উদাহরণ

ব্যবহার

উপসংহার

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!